초기하 분포
1. 개요
1. 개요
초기하 분포는 유한 모집단에서 비복원추출을 할 경우, 표본에 포함된 특정 속성을 가진 원소의 개수가 따르는 이산 확률 분포이다. 이는 복원추출을 가정하는 이항 분포와 구분되는 핵심적인 특징이다.
이 분포는 통계학의 표본 추출 이론과 확률론에서 중요한 역할을 하며, 실제로는 품질 관리에서 불량품 수를 점검하거나, 생물학 실험에서 특정 형질을 가진 개체를 세는 등 유한한 대상들로부터 표본을 뽑는 다양한 상황에 적용된다.
2. 정의
2. 정의
초기하 분포는 유한 모집단에서 비복원추출을 할 때, 표본에서 관심 있는 특정 속성을 가진 원소의 개수가 따르는 이산 확률 분포이다. 이는 확률론과 통계학에서 표본 추출 분석의 기본 모델 중 하나로 널리 사용된다.
구체적으로, 크기가 N인 모집단에 '성공'으로 정의된 원소가 K개, '실패'인 원소가 N-K개 있다고 가정한다. 이 모집단에서 n개의 표본을 비복원으로 추출할 때, 표본에 포함된 '성공' 원소의 개수를 확률 변수 X라고 하면, X는 초기하 분포를 따른다. 이 분포는 품질 관리에서 불량품 검사나, 생물학 실험에서 특정 형질을 가진 개체 수를 세는 등 실제 많은 상황을 모델링하는 데 적합하다.
초기하 분포의 핵심 조건은 추출이 비복원으로 이루어진다는 점이다. 즉, 한 번 추출된 원소는 모집단에서 제외되므로, 각 시행의 확률이 이전 시행 결과에 의존하게 된다. 이는 각 시행이 독립적이며 확률이 일정한 이항 분포와 구분되는 중요한 특징이다. 따라서 모집단 크기에 비해 표본 크기가 클수록, 또는 추출이 복원추출이 아닐 때 초기하 분포의 사용이 필수적이다.
3. 확률 질량 함수
3. 확률 질량 함수
초기하 분포의 확률 질량 함수는 특정 조건을 만족하는 사건이 일어날 확률을 계산하는 공식이다. 이는 모집단의 크기, 모집단 내 '성공'으로 정의된 원소의 수, 그리고 추출할 표본의 크기라는 세 가지 매개변수에 의해 결정된다.
구체적으로, 크기가 N인 유한 모집단에 '성공' 상태인 원소가 K개 있다고 가정한다. 이 모집단에서 비복원추출로 n개의 표본을 추출할 때, 표본에 포함된 '성공' 원소의 개수를 확률변수 X라고 하면, X는 초기하 분포를 따른다. 이때 확률변수 X가 정확히 k라는 값을 가질 확률, 즉 P(X = k)는 다음과 같은 확률 질량 함수로 표현된다.
P(X = k) = (C(K, k) * C(N-K, n-k)) / C(N, n)
여기서 C(a, b)는 조합(Combination)을 나타내며, a개 중에서 b개를 선택하는 방법의 수를 계산한다. 이 공식의 분자 C(K, k)는 K개의 '성공' 원소 중에서 k개를 뽑는 경우의 수를, C(N-K, n-k)는 나머지 (N-K)개의 '비성공' 원소 중에서 필요한 (n-k)개를 뽑는 경우의 수를 의미한다. 분모 C(N, n)은 모집단 전체 N개 중에서 표본 n개를 뽑는 모든 가능한 경우의 수이다. 이 공식은 비복원추출의 특성을 반영하여, 각 추출 시 모집단의 구성이 변화하는 상황을 정확히 모델링한다.
확률 질량 함수의 정의역, 즉 확률변수 k가 가질 수 있는 값의 범위는 max(0, n - (N-K))부터 min(n, K)까지의 정수이다. 이는 뽑은 표본 안의 '성공' 개수가 음수가 될 수 없으며, 모집단에 존재하는 '성공' 원소의 총수 K나 표본 크기 n을 초과할 수 없다는 논리적 제약에서 비롯된다. 이 함수는 이항 분포의 확률 질량 함수와 형태가 유사해 보이지만, 이항 분포가 각 시행이 독립적인 복원추출을 가정하는 반면, 초기하 분포는 시행 간 종속성을 띠는 비복원추출을 모델링한다는 점에서 근본적인 차이가 있다.
4. 기댓값과 분산
4. 기댓값과 분산
초기하 분포의 기댓값은 모집단 크기 $N$, 모집단 내 성공 원소 수 $K$, 추출 표본 크기 $n$을 사용하여 $E(X) = n \frac{K}{N}$으로 계산된다. 이는 직관적으로 이해할 수 있는데, 표본 크기 $n$에 모집단 내 성공 비율 $\frac{K}{N}$을 곱한 값이다. 예를 들어, 전체 100개의 제품 중 불량품이 10개 있을 때, 5개를 뽑을 경우 발견될 불량품의 평균 개수는 $5 \times \frac{10}{100} = 0.5$개가 된다. 이 값은 복원추출을 가정하는 이항 분포의 기댓값과 동일하다.
초기하 분포의 분산은 $Var(X) = n \frac{K}{N} \frac{N-K}{N} \frac{N-n}{N-1}$ 공식으로 구한다. 이 공식은 이항 분포의 분산 공식 $n p (1-p)$에 유한 모집단 수정 계수라고 불리는 $\frac{N-n}{N-1}$이 곱해진 형태이다. 이 수정 계수는 비복원추출로 인한 종속성을 반영하며, 표본 크기 $n$이 1이거나 모집단 크기 $N$이 무한대에 가까워지면 이 값은 1에 수렴하여 이항 분포의 분산과 같아진다.
분산 공식에서 알 수 있듯, 표본 크기 $n$이 모집단 $N$에 가까워질수록 분산은 0에 가까워진다. 이는 거의 전체 모집단을 조사하는 경우 특정 속성을 가진 원소의 개수가 거의 확정적으로 알려지기 때문이다. 이러한 기댓값과 분산의 성질은 품질 관리에서 샘플링 검사나 생물학에서 표본 조사를 설계할 때 유용하게 활용된다.
5. 다른 분포와의 관계
5. 다른 분포와의 관계
초기하 분포는 다른 여러 확률 분포와 밀접한 관계를 가진다. 가장 직접적인 관계는 이항 분포와의 관계이다. 초기하 분포는 비복원추출을 모델링하는 반면, 이항 분포는 복원추출 또는 독립 시행을 모델링한다. 모집단 크기 N이 표본 크기 n에 비해 매우 클 때, 비복원추출은 사실상 복원추출과 유사해지므로, 초기하 분포는 이항 분포로 근사될 수 있다. 이는 모집단이 무한대에 가깝다고 가정하는 효과와 같다.
또한, 다항 분포는 초기하 분포를 두 개 이상의 범주로 일반화한 형태로 볼 수 있다. 초기하 분포가 성공과 실패 두 가지 범주만을 다룬다면, 다항 분포는 k개의 서로 다른 범주에 대한 비복원추출을 설명한다. 한편, 포아송 분포는 희귀 사건의 발생 횟수를 모델링하는데, 표본 크기가 크고 성공 확률이 매우 작은 특정 조건 하에서 초기하 분포 역시 포아송 분포로 근사될 수 있다.
마지막으로, 베타-이항 분포와도 연관이 있다. 베타-이항 분포는 이항 분포의 성공 확률이 베타 분포를 따른다고 가정한 혼합 분포이다. 흥미롭게도, 특정 조건에서 초기하 분포는 베타-이항 분포의 한 형태로 해석될 수 있으며, 이는 베이지안 통계학의 관점에서 모집단 매개변수에 대한 사전 분포를 도입한 결과와 연결된다.
6. 적용 예시
6. 적용 예시
초기하 분포는 유한한 모집단에서 비복원추출을 통해 표본을 뽑을 때 발생하는 상황을 모델링하는 데 널리 사용된다. 이는 표본을 추출할 때마다 모집단의 구성이 바뀌는 상황, 즉 한 번 뽑은 것을 다시 모집단에 넣지 않고 다음 시행을 진행하는 경우에 적용된다.
품질 관리 분야에서는 불량품 검사에 자주 활용된다. 예를 들어, 한 로트에 총 N개의 제품이 있고 그중 M개가 불량품이라고 알려져 있을 때, 로트에서 n개의 샘플을 무작위로 뽑아 검사한다고 가정하자. 이때 샘플 안에 포함된 불량품의 개수 k는 초기하 분포를 따른다. 이를 통해 특정 수의 불량품이 발견될 확률을 계산하여 로트의 합격 여부를 통계적으로 판단할 수 있다.
생물학 및 생태학 연구에서도 중요한 도구로 사용된다. 한 서식지에 총 N마리의 동물이 살고 있고, 그중 M마리가 특정 질병에 감염되었다고 추정될 때, 연구자가 포획-재포획법 없이 한 번에 n마리를 포획하여 검사한다면, 검사된 표본 내 감염된 개체의 수는 초기하 분포를 따른다. 이는 전체 개체군 내 질병 유병률을 추정하는 데 도움을 준다. 또한, 유전학 실험에서 한 집단에서 특정 유전형을 가진 개체를 뽑는 경우나, 카드 게임에서 특정 무늬의 카드를 뽑는 상황과 같은 다양한 확률적 샘플링 문제를 분석하는 데에도 적용될 수 있다.
7. 여담
7. 여담
초기하 분포는 유한한 크기의 모집단에서 비복원추출을 모델링하는 가장 기본적인 도구이다. 이는 특히 표본 조사나 품질 관리에서 로트 검사 시 불량품의 개수를 추정할 때 유용하게 적용된다. 예를 들어, 제품 100개 중 불량품이 10개 들어 있을 때, 10개를 무작위로 뽑아 검사했을 때 발견되는 불량품의 수는 초기하 분포를 따른다.
이 분포는 이항 분포와 자주 비교된다. 이항 분포는 복원추출 또는 모집단이 무한대라고 가정하는 반면, 초기하 분포는 비복원추출이라는 현실적인 조건을 반영한다. 따라서 추출하는 표본의 크기가 모집단 크기에 비해 클수록, 두 분포 간의 차이는 뚜렷해진다. 반대로 모집단 크기가 표본 크기에 비해 매우 크면, 초기하 분포는 이항 분포에 근사하게 되어 계산의 편의를 위해 이항 분포를 사용하기도 한다.
초기하 분포의 이름은 그 확률 질량 함수가 초기하 급수와 관련된 형태를 띠고 있어서 붙여졌다. 이 분포는 생물학에서 특정 종의 개체수를 추정하거나, 유전학에서 대립유전자의 빈도를 분석하는 등 다양한 과학 분야에서도 활용된다. 또한 카드 게임에서 원하는 카드를 뽑을 확률을 계산하는 것도 초기하 분포의 간단한 적용 예시로 볼 수 있다.
